做测序不看通路怎么行?这份KEGG数据库介绍请拿走 | 转录调控专题
KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是一个整合了基因组、化学和系统功能信息的综合性数据库,旨在揭示生命现象的遗传物质与化学蓝图。
它是由日本京都大学生物信息学中心的Kanehisa实验室于1995年建立,是国际最常用的生物信息数据库之一,以“理解生物系统的高级功能和实用程序资源库”著称。
KEGG的网址:https://www.kegg.jp/
KEGG各个数据库
KEGG是一个综合数据库,它们大致分为系统信息、基因组信息和化学信息三大类。进一步可细分为16个主要的数据库,可以通过不同的颜色编码来区分。
KEGG三类数据库之间的关系:
KEGG对象标识符。数据库中包含各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。
因此,各个数据库中的数据记录都被称为KEGG对象。这些对象可以通过KEGG对象标识符来识别,标识符由一个与数据库相关的前缀加五个数字构成。
KEGG PATHWAY是最核心的数据库之一,该数据库是一个手工画的代谢通路的集合,包含以下几方面的分子间相互作用和反应网络。
KEGG的通路分类也是分层级的,一共可以分为三级。以下图为例,在Metabolism为A级,其下面包括了“Global and overview maps”、“Carbohydrate metabolism”、“Energy metabolism”等十几个B级通路,而B级通路下又会包含若干C级通路。
比如图中的“Global and overview maps”下面又包含了若干个下一级( C级)通路。
KEGG BRITE是一个层级分类的数据库,包含生物系统各个方面的知识。
相对于KEGGPATHWAY仅限于分子间相互作用和反应,KEGGBRITE包含了许多不同的关系类型。例如,可以查询酶和底物之间的关系,也可以查询某种酶的同源基因。
KEGG MODULE是一个人工定义的功能单元的集合,被用于已测序基因组的注释和生物学上的解释。各个模块使用M开头的编号及与其对应的一系列K开头的编号来表示。
四种主要的KEGG模块:
1. 通路模块:代表在KEGG代谢通路图中的复杂功能单元,例如M00002(糖酵解,与三碳化合物相关的核心模块)
2. 结构复合物:通常形成分子机械,例如M00072(寡糖转移酶)
3. 功能集:基本单元的其他形式,例如M00360(氨酰基-tRNA合酶,原核生物)
4. 特征模块:作为某种表型的标记,例如M00363(肠出血性大肠杆菌致病性特征,志贺毒素)
KEGG ORTHOLOGY (KO) Database:KEGG参考通路图,BRITE功能层次以及KEGG模块都是以一种广泛的方式来表示,都可以用于所有物种,而KEGG直系同源系统(KO System)是这一表示方式的基础。
包含手动定义的直系同源组,这些直系同源组就相当于KEGG通路中的点,BRITE层级中的点以及KEGG模块中的点(这些点并不是某个具体物种的某一个基因,而是在许多物种中都存在的直系同源的某一个基因)。
一旦基因被分配了KO标识或K编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模块就可以自动产生了。
KEGG通路中ko和K等编号说明
ko编号表示一个通路,这个通路是不分物种的,相当于所有物种的这一通路的并集。
K编号表示一个基因,是ko通路中的基本单位,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。
KEGG Reaction是收录酶促反应相关信息的数据库,包含了所有代谢通路中的酶促反应和一些只在enzyme数据库中有记录的酶促反应,每条记录用RNumber唯一标识。
蛋白序列在线KEGG注释
在基因组研究中,特别是当组装了一个新物种的基因组,我们首先要做的就是注释,从而大致推断这些基因的功能。KEGG提供了在线注释功能,进入KEGG中自动注释工具界面,KAAS(http://www.genome.jp/tools/kaas/),如下图,以KAAS job request (BBH method) 为例。
点击KAAS job request (BBH method) 进入注释界面,提交注释序列:
信息填写完成之后,点击右下角“Compute”按钮,提交成功。注释结果会以邮件的形式发送。
总结
KEGG是基因功能注释和富集分析最常用的数据库之一,如果想查询基因的功能、涉及的生物学通路以及通路中的上下游基因,可以前往KEGG数据库查询。
所见即所得,绘图高规格联川云平台,让科研更自由